CUDA的矩阵乘优化经常见到 pragma unroll 的使用,本文通过简单的示例,展示了CPU和CUDA对循环展开前后的性能表现,来通俗理解循环展开的优化策略。
资讯同步
文章同步
公众号:deephub-imba
公众号:奕凯的技术栈